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摘 要 : 针对 传统 基于 最 小 分 类 误差 准则 (MCE) 建 立 的 目标 函数 存在 样本 错 分 类 时 网 络 出 现 的 梯度 反 向 问题 ， 引 入 最 
小 分 类 误差 准则 ， 定 义 带 修正 项 的 FMCE 目标 函数 。 以 较 高 精度 的 交叉 粒 作 为 基 函 数 ， 将 FMCE 作为 修正 函数 ， 提 出 
改进 交叉 粒 目 标 函 数 CE-FMCE, 使 得 网 络 在 反 向 传播 过 程 中 提升 标签 类 输出 的 概率 。CE-FMCE 不 仅 克 服 了 传统 MCE 
目标 吕 数 的 梯度 反 向 问题 ， 还 弥补 了 交 又 蛟 函数 对 非 标签 集 梯度 不 作 区 分 处 理 的 不 足 。 分 别 在 自 建 台风 云图 数据 集 和 
通用 数据 集 MNIST 上 对 CE-FMCE 和 MSE、 交 叉 粒 、MCE、M3CE 进行 对 比 实验 ， 实 验 结果 表明 CE-FMCE 优 于 其 


他 目标 函数 。 
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Research on deep learning based on improved minimal classification error criterion algorithm: 


take typhoon satellite image as example 


Zheng Zongsheng, Hou Qian, Zou Guoliang', Lu Qi 
(College of Information, Shanghai Ocean University, Shanghai 201306, China) 


Abstract: For the traditional objective function based on the minimum classification error criterion (MCE) , there existed the 


problem of gradient inversion in the network when the sample was misclassified. This paper introduces the minimum 


classification error criterion and defines the FMCE objective function with correction term. This paper used the higher 


precision cross entropy as a basis function and FMCE as a cotrection function, and proposes an improved cross-entropy 


objective function CE-FMCE, which makes the network increase the probability of label class output in the reverse 


propagation process. CE-FMCE not only overcomes the gradient inversion problem of the traditional MCE objective function, 


but also compensates for the lack of differentiation of the cross-entropy function for non-label set gradients. This paper 


compared CE-FMCE and MSE, cross-entropy, MCE, and M3CE on self-built typhoon image dataset and general dataset 


MNIST. The experimental results showed that CE-FMCE was superior to other objective functions. 
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深度 学 习 是 当前 流行 的 机 器 学 习 算法 中， 针对 浅 层 神 经 网 


将 错误 率 降低 了 9%，CNN 才 在 图 像 识别 应 用 方面 获得 重大 进 
展 轩 ,目前 国内 外 研究 学 者 对 CNN 的 权 值 优化 方法 主要 集中 在 


选择 合适 的 网 络 参 数 ( 如 变 尺 寸 卷 积 核 外 参数 池 化 nDropout 


一; 


络 对 复杂 分 类 问题 泛 化 能 力 弱 的 缺点 ， 其 通过 模拟 人 脑 进行 逐 


层 学 习 ， 提 取 自 然 信 息 的 深层 抽象 特征 来 提高 泛 化 能 力争 。 目 
前 ， 深 度 学 习 在 模式 识别 、 智 能 视频 、 机 器 视觉 等 研究 领域 取 
得 了 一 系列 成 果 B9。 卷 积 神经 网 络 (convolutional neural 
networks，CNN ) 作为 深度 学 习 算法 成 功 应 用 的 模型 之 一 ， 


置 零 率 0 等 )， 使 用 具有 更 好 稀 玻 特性 的 激活 函数 (如 Relu、 


Leaky Relu、PRelu 等 )。 其 中 权 值 优化 方法 中 ， 目 标 函 数 至 关 
重要 ,目标 函数 作为 CNN 模型 中 重要 的 组 成 部 分 ， 其 值 越 小 
表示 模型 的 鲁 棒 性 越 好 02。 在 网 络 的 训练 过 程 中 它 不 仅 能 表示 


当前 网 络 的 状态 ， 还 在 反 向 传播 的 梯度 下 降 算法 中 提供 参数 的 


LeCun[ 在 1989 年 提出 。 直 到 2012 年 在 ImageNet 评测 问题 
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合作 期 征 
究 一 以 合 风 卫星 云图 为 例 


层 基 本 接受 不 到 有 效 的 训练 信号 。 如 何 使 网 络 权 值 达 到 最 优 从 ”特征 图 做 下 采样 降低 图 像 的 分 辩 率 ， 减 少 运算 量 从 而 提高 网 络 
而 提高 泛 化 能 力 ， 其 中 构建 目标 函数 成 为 研究 的 热点 。 的 收敛 速度 。 网 络 在 反 向 传播 中 运用 残 差 O 反 向 传播 规则 0 

在 卷 积 神经 网 络 算法 中 ， 通 常 使 用 的 目标 函数 有 最 小 均 方 输出 层 向 输入 层 逐 层 传 递 ， 使 得 模型 目标 函数 不 断 降低 ， 对 
误差 (mean square error, MSE)、 交 叉 焙 (cross entropy) 等 , 其 ” 每 个 神经 元 的 权 值 进 行 更 新 ， 从 而 得 到 网 络 的 最 佳 权 值 。 两 个 
中 MSE 更 适用 于 解决 回归 问题 Papoulis 等 人 0 认为 在 分 类 问 ” ”过程 循环 进行 ， 直 到 目标 函数 达到 规定 阔 值 或 达到 最 大 迭代 次 
题 中 MSE 估计 的 是 后 验 概率 , 当 网 络 的 输出 函数 为 sigmoid 时 ee ee ee 
网 络 存在 梯度 消失 的 问题 。 随 着 CNN 的 发 展 ， 研 究 证 明 交叉 数 为 止 。 残 差 表 征 网 络 实际 输出 ye 与 期 望 输出 ywred 之 间 的 
焙 损 失 函 数 较 MSE 平坦 区 域 更 少 ， 使 得 网 络 更 容易 跳出 局 部 ”误差 信号 ， 深 度 为 五 层 的 网 络 的 输出 层 残 差 可 表示 为 
最 佳 值 5" I， 所 以 对 于 多 分 类 问题 使 用 交叉 粹 作为 目标 函数 能 

oL(w,b) | 

够 取得 更 好 的 效果 。 因 此 ， 目 前 对 于 目标 函数 的 研究 ， 大 多 是 0= 元 V, Leo (z) (1) 
针对 特定 的 问题 ， 在 交叉 炉 函数 的 基础 上 引入 与 之 相关 的 参数 。 
项 。 例 如 归 赫 针对 人 脸 识别 问题 ， 增 加 个 体内 差异 的 损失 函数 其 中 : Cr (Z) 表示 和 输出 层 函数 的 导数 ; Zr 表示 第 五 层 的 输 


作为 正则 项 ， 使 得 网 络 学 习 到 属于 同一 个 人 的 特征 向 量 在 空间 
内 尽 可 能 相似 [ 针 。 但 是 交叉 炉 函数 在 梯度 下 降 算法 中 并 不 对 非 
标签 维 的 梯度 作 区 分 处 理 ， 而 是 对 它们 作 相 同 的 训练 。 这 就 导 


入 。 


卷 积 神经 网 络 通常 采用 softmax 
设 Z， 为 softmax 函数 的 输入 , 那么 网 络 的 输出 层 
经 元 的 值 表示 为 


致 分 类 器 不 能 很 好 的 将 标签 类 和 最 容易 混淆 的 类 区 分 ， 从 而 降 
低 模型 的 正确 率 。 
如 果 一 个 分 类 器 在 训练 的 过 程 中 ， 能 将 标签 类 与 最 容易 混 
淆 的 类 别 区 分 ， 那 势必 会 降低 误差 率 。Juang 等 人 09 最 先 将 最 
小 分 类 误差 方法 (minimum classification error,MCE) 引 入 到 浅 层 
神经 网 络 的 训练 过 程 中 ， 他 们 提出 的 目标 函数 考虑 非 标签 集中 
混淆 程度 最 大 的 一 个 类 别 来 降低 分 类 的 错误 率 但 是 基于 最 小 分 
类 误差 构造 的 logistic 目标 函数 存在 梯度 消失 的 问题 。 当 深层 卷 
积 神经 网 络 通过 反 向 传播 算法 调整 网 络 权 值 时 ， 处 于 最 顶层 的 
目标 函数 一 旦 出 现 梯 度 饱 和 ， 将 会 影响 网 络 的 训练 ， 因 此 传统 
的 logistic 函数 并 不 适合 直接 应 用 到 深度 卷 积 神经 网 络 中 。 为 了 
克服 梯度 饱和 的 问题 , Feng 等 人 07 提 出 基于 最 大 间隔 最 小 分 类 
误差 (M3CE) 建立 目标 函数 ， 但 当 样本 被 错 分 类 时 ，M3CE 出 
现 部 分 非 标 签 维 所 对 应 的 梯度 方向 与 交叉 糖 梯 度 方向 相反 ， 这 
将 导致 网 络 在 反 向 传播 的 过 程 中 信息 不 能 充分 训练 且 收 敛 速度 
降低 ， 因 此 限制 了 其 推广 使 用 。 
为 了 克服 传统 的 MCE 目标 函数 存在 的 梯度 方向 问题 ， 本 
文 引 入 最 小 分 类 误差 准则 ， 定 义 带 修正 项 的 目标 函数 FMCE， 
提出 基于 最 小 分 类 误差 准则 的 修正 交叉 炉 目标 函数 
(CE-FMCE)。CE-FMCE 不 仅 克 服 了 传统 MCE 目标 函数 的 梯 
I 问题， 而 且 弥 补 了 交叉 炉 函 数 对 非 标 签 维 的 梯度 不 做 区 
里 的 不 足 。 并 且 将 此 目标 函数 应 用 于 台风 卫星 云图 自 建 数 
据 集 和 手写 字体 库 MNIST 数据 集 ， 通 过 在 卷 积 神经 网 络 框架 
下 进行 对 比 实验 ， 证 明 本 文 提 出 的 目标 函数 CE-FMCE 的 有 效 
性 。 


1 ”传统 卷 积 神经 网 络 


卷 积 神经 网 络 是 由 卷 积 层 和 采样 层 交 蔡 组 成 的 网 络 拓扑 结 
构 ， 在 网 络 训练 过 程 中 包括 前 向 传播 和 反 向 传播 两 个 过 程 。 对 
于 前 向 传播 ， 卷 积 层 利 用 本 层 的 卷 积 核 与 输入 图 像 进行 卷 积 运 
算 ， 实 现 对 输入 图 像 隐 式 的 特征 提取 ; 采样 层 则 对 当前 输入 的 


pa 


则 


expZ) 


ez 


其 中 : 1 表示 样本 类 别 数 。 


层 作为 网 络 的 输出 层 函 数 。 
P 第 J 个 神 


(2) 


G3) 


本 误差 的 总 和 ， 所 


残 差 5 表 


(4) 


P 第 了 个 神经 元 的 


对 于 一 个 含有 N 个 样本 的 训练 集 ， 其 交叉 粒 函 数 表示 为 
1 忆 ， 
了 = 一 一 lo 
. 直立 部 gp, 
由 于 网 络 在 训练 过 程 中 的 误差 是 所 有 站 
以 为 了 方便 分 析 , 这 里 只 考虑 单个 样本 。 那 么 输出 层 
示 为 
_oL p;-l, 了 = 大 
“ Oz pj; jk 
其 中 ;了 表示 p 中 的 任意 一 维 ( 即 输出 层 


值 ); 天 表示 样本 标签 维 。 根 据 式 〈4) 可 以 看 
主 时 ， 即 J =k ) 此 时 0. <0, 其 余 允 


度 是 样本 标签 4 


通过 分 析 得 知 ， 
向 传播 过 程 中 对 


当 ] 基 


同 


不 高 。 
2 


2.1 


所 有 非 标签 维 


及 时 


的 方式 对 其 进行 训练 。 这 将 降低 网 络 


改进 MCE 目标 函数 算法 


上 ， 当 所 求 的 维 


0. 二 p;， 那 么 交叉 类 
梯度 不 作 


区 分 处 理 


改进 MCE 目标 函数 算法 及 证 明 


针对 传统 卷 积 神经 


网 络 中 交叉 


交叉 炉 函 
CNN。 


数 的 


通过 定义 错 分 类 


基础 上 利 


1 最 小 误差 


E 度 0 >0。 


衣 函 数 在 反 


| 


j 十 林 /) 


日 . ZE 


相 


的 收敛 速度 日 


三 


训练 精度 


商 函 数 存在 的 问题 ， 可 以 在 


则 建立 目标 函数 来 优化 


度量 ， 将 不 


式 进行 1， 


b) 对 类 别 上 中 每 个 村 


0) 为 di(z) 构 建 一 个 目标 


数 定义 如 下 : 


| 练 ， 从 而 弥补 交叉 灶 的 不 足 
基于 最 小 分 类 误差 定义 的 目标 
a) 对 某 个 类 别 上 ， 定 义 一 个 判 另 


给 定 一 个 错 分 类 度量 di (z)。 


LE 本 特征 


5 
本 


不 同 的 方 


司 的 非 标签 维 


也 
| 函数 8g (Zz) 。 


数 一 般 为 以 下 三 个 步骤 : 


函数 凡 (G,(z)) 。 最 终 的 


标 函 


在 梯度 下 降 法 中 输出 层 残 差 56 为 


1 N 
Dyce = ~— 2 1,(d,(z,)) (5) OL,(w,b) [56,+6, 0<d, <1 
N 今 oOm= 一 一 一 一 = (10) 
0z， 0 -1<d <0 
传统 方法 在 建立 时 仅 考虑 di 的 影响 ， 例 如 采用 logistic 。 其中 ， 
标 函 数 ， 随 着 网 络 深度 增加 会 出 现 梯度 消失 问题 M3CE 定 pj(-di —D), j=k 
0d , (z) 有 
6,=—A = -pd,, jzkKHjzr 
义 1, = + 中) ， 当 样本 被 错 分 类 时 只 有 错 分 类 维 梯度 为 正 6z， 


p; (di+l), j=r 
数 ， 对 比 (4) 式 发 现 ， 这 与 交叉 粒 方 向 相反 ， 这 样 不 仅 会 造成 收 


on by expz') 


敛 速度 下 降 ， 而 且 使 得 信息 不 能 充分 训练 。 为 了 防止 错误 的 信 5 = __XPpZ _ 
号 传播 到 网 络 底层 引起 不 可 预测 的 错误 ， 因 此 本 文 对 MCE 进 Oz Dexpz, " 
行 改进 ， 提 出 目标 函数 FMCE。 其 定义 过 程 如 下 : 固 


司 风 可 多 分 人 站 民风 玫 涉 用 sofimax 作为 抽出 层 ; 所 以 不 。 国 为 减 差 品 与 功 的 天 水 有 关 ， 所 区 进行 苏 开 衬 论 。 
文采 用 softmax 函数 作为 判别 函数 g (Z) 。 
b) 如 果 一 个 分 类 器 能 将 正确 的 类 别 与 最 容易 错 分 的 类 别 分 。 当 0< 必 <1 时 


开 ， 那 么 对 网 络 的 识别 率 必 定 有 所 提高 。 所 以 对 错 分 类 度量 由 
O(n >》expzi) 
加 _. _ _0d 41(2) 四 
pe Oz 
二 (11) 
di(z)= -pi tp 0 i 
了 了 一 一 m m 6 jt 7 7 
> expz 2 exp . plods +D, jzkHjzr 
Pp; (—di+2), j=r 
其 中 : kk 是 样本 标签 类 ;了 表示 softmax 函数 输出 中 针对 样本 
标签 类 最 容易 错 判 的 一 类 。 当 -1<d. <0 时 
0) 当 0 <d, <1 时 即 模型 出 现 错误 分 类 ， 传 统 的 MCE 目标 ey A 
函数 会 增加 错误 信息 对 网 络 的 影响 ， 从 而 降低 模型 鲁 棱 性 。 因 。 5 -5 = 经 一 - -=p 3 
此 本 文 在 0 <d, <1 时 增加 修正 项 In 》 ,expz, 。 所 以 对 于 单 " Pi (—di+l), j=r 
i=l 
式 (11)~(12) Opy 的 方向 与 di 的 关系 可 以 归纳 总 结 为 表 1 
一 样本 的 表达 式 为 所 示 。 
表 1 目标 函数 梯度 分 析 
加 Op 0<d <1 -1l<d, <0 


d, +ln > expz, 0<d <1 
1 = 天 pz; k 07) j=k _ _ 


di -1l<d. <0 jkHjz#r 十 十 


其 中 ，7n 表示 样本 类 别 数 。 md 


那么 改进 后 的 目标 函数 FMCE 可 以 表示 为 姑 为 softmax 的 输出 可 以 表示 后 验 概率 ， 所 以 
1 2 出 Pr e[0,1],p, e[0,1]， 那 么 4d, e[--1,1] ， 即 当 一 个 样本 从 错 
a NO ln pa ee 人 分 类 变 为 正确 分 类 时 ，d 从 1 变 为 -1。 分 析 表 1、 式 (11)(12) 
my 1¥a ee 和 (4)， 发 现 当 0 < d, <1 即 样本 被 错 分 类 时 ， 本 文 实现 了 对 非 
NS 标签 维 梯度 作 区 分 处 理 ， 并 且 保证 Gy 梯度 方向 与 6 一 致 ; 
2.2 改进 MCE 目标 函数 证 明 当 一 1< qd, <0 即 样本 被 正确 分 类 时 , 6。 梯度 的 方向 也 与 交叉 
对 目标 函数 进行 输出 层 残 差 的 理论 推导 , 证 明 FMCE 的 可 ， 糯 一 致 。 因 此 本 文 方法 保证 提升 正确 类 输出 的 同时 对 非 标签 类 
行 性 。 为 了 便于 分 析 只 考虑 单一 样本 ， 即 式 (8) 被 简化 为 作 不 同 的 训练 ， 从 而 证 明了 本 文 提出 的 方法 在 理论 层面 的 可 行 
性 。 综 上 所 述 ，6, 可 以 作为 6. 的 补充 项 ， 即 FMCE 可 以 作 
di+ln 2 expz, 0<d <1 为 交叉 粮 的 补充 来 优化 卷 积 神经 网 络 。 

Pm = 加 姑 此 在 交叉 糯 的 基础 上 引入 FMCE 构成 目标 函数 


d, -1<d, <0 、 
CE-FMCE， 最 终 表达 式 为 


和 
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L=L.+QLy (13) 的 正确 率 为 
其 中 ，C=]1/ 了 ,7 表示 一 个 批 次 中 样本 的 数量 ， 根 据 实验 过 ACC Cy yr) = Plime = ya) i 
n= 
牌 中 样本 的 大 小 进行 取 什 ， Je = 一 调 >lo8 Pa。 因此 预测 得 到 的 类 标签 与 真正 的 标签 集 越 吻合 , 模型 分 类 的 正 
CE-FMCE 可 以 表示 为 确 率 越 大 。 
要 3.1 基于 CE-FMCE 的 台风 等 级 分 类 
1 HOt ermpa 0<d<1 3.1.1 数据 集 构建 
L=-—2 ylogp,+a ~ ” ee pe | | 
二 1 -1<d <0 实验 数据 采用 日 本 国立 情报 学 研究 所 (National Institute of 
和 二 Informatics ，NII ) 提供 的 西北 太平 洋 1978 一 2016 年 
(14) “Himawaril-8” 卫 星 观 测 到 的 高 时 间 分 辩 紊 卫星 云图 资料 及 对 
2.3 网 络 结构 应 的 台风 强度 信息 。 数 据 集 包含 近 1 000 多 个 台风 过 程 。 为 了 
本 文 构建 的 卷 积 神经 网 络 如 图 1 所 示 。 采 用 多 层 卷 积 层 代 ”获取 全 天 候 的 数据 ， 实 验 采 用 了 红外 云图 作为 数据 样本 ， 依 据 
网 增强 模型 特征 提取 能 力 的 同时 降低 卷 积 过 程 日 本 气象 台 提 供 的 台风 等 级 标准 制定 4 类 台风 等 级 标签 ， 如 表 
的 计算 量 。 通 过 权 值 共享 和 网 络 结构 重组 对 6 层 神 经 网 络 进行 2 所 示 。 
ee ee id 表 2 台风 等 级 标准 
地 训练 并 用 于 分 类 。 构建 模型 时 采用 三 个 卷 积 层 (C1-C3)、 一 个 台风 等 级 最 大 风速 /kt 最 大 风速 /m/s 
采样 层 (S1) 和 两 个 全 连接 层 (F4-F5)， 其 中 C1 和 C2 采用 32 热带 低 气 压 <34 <17 
个 5*5 大 小 的 卷 积 滤波 器 ， 步 长 为 1; C3 采用 32 个 2*2 大 小 台风 > 34~<64 > 17~<33 
的 卷 积 核 ， 步 长 同样 设 为 1; 采样 层 则 采用 大 小 为 2*2 的 核对 强 台风 > 64 一 <85 > 33~<44 
卷 积 后 的 特征 图 进行 最 大 下 采样 ， 降 低 图 像 的 分 状 率 从 而 提高 超 强 台风 之 85<105 之 44 一 <54 
网 络 的 收敛 速度 。 优 化 模型 时 选择 使 用 Relu 函数 作为 激活 函 本 文 将 采集 到 的 红外 云图 首先 采用 中 值 滤波 器 去 除 云图 斑 
数 ; 在 卷 积 层 加 入 批 归 一 化 层 来 加 速 网 络 的 训练 ， 此 外 在 全 连 ” 块 中 的 噪声 ， 有 效 保留 图 像 中 的 边缘 信息 ; 其 次 采用 插值 缩放 


接 层 使 | 
CE-FMCE 目标 函 


Droponut 方法 来 抑制 模型 过 拟 合 ， 采 用 本 文 提出 的 
数 , 根据 样本 数据 集 大 小 采用 合 


适 的 参数 CQ ， 


f 


在 反 向 传播 过 程 中 使 目标 函 


卷 积 层 C1 


2*2 


采样 层 S1 


数 最 小 化 从 而 优化 网 络 参数 。 


卷 积 层 C2 


卷 积 层 C3 


| Dropout | 


| | | 


3 ”实验 结果 及 分 析 


本 文 所 有 对 比 实验 均 是 基于 Windows 10 CPU Intel Core 


i5-6500M 3.2 GHz 内 存 为 4 


深度 学 习 框 架 。 实 验 音 


CE-FMCE 对 台风 等 级 分 类 的 可 行 性 ， 
1 星云 图 数据 集 , 其 中 批 尺寸 为 40， 


台风 
证 CE-FMCE 的 普 适 性 


， 第 


GB， 使 用 基于 Tensorflow 的 keras 
分 分 为 两 组 : 为 了 证 明 提 出 的 目标 函数 
第 一 组 实验 使 用 自 建 的 


则 ww=0.023 ; 为 了 验 
二 组 实验 数据 集 采 用 通用 数据 集 手 


都 采用 2.3 节 中 的 网 络 模型 。 


写字 体 库 MNIST， 此 时 w=0.01 ， 框 架 则 与 第 一 组 实验 相同 


此 外 ， 本 文 的 两 组 对 比 实验 中 都 


CE-FMCE 和 目前 被 
了 预期 的 效果 。 


泛 使 用 的 目标 函数 作对 比 ， 实 验 结 


模型 的 精确 度 通 过 正确 


率 检验 , 假设 在 N 个 样本 中 第 n 个 


> 


羊 本 的 真实 类 标签 为 Yirue 


,预测 类 标签 为 yea ， 则 模型 分 类 


将 云图 分 辨 率 转 为 24*24; 最 后 根据 表 2 制定 数据 集 标签 ， 
且 将 台风 云图 转换 为 24*24*1 的 格式 作为 模型 的 输入 。 最 终 构 
建 了 4 000 训练 样本 、800 测试 样本 的 数据 集 ， 热 带 低 气 压 、 

测试 集 各 200 个 ， 


台风 、 强 台风 、 超 强 台 风 训 练 集 各 1 000 个 、 
2 所 示 。 


部 分 卫星 云图 样本 如 图 


(b) (©) (d) 
妈 2 ”部 分 气象 卫星 云图 样本 (a、 b 、c、d 分 别 代 表 热 带 低 气压 、 
台风 、 强 台风 、 超 强 台 风 ) 


3.1.2 结果 对 比 
第 一 组 实验 中 ， 将 本 文 提出 的 目标 函数 与 均 方 差 、 交 又 炉 


了 对 比 ， 对 模型 迭代 200 次 网 络 的 正确 率 如 图 3 所 示 。 
不 同 目标 函数 的 训练 结果 


1 


0.9 


0.8 


0.7 


0.6 


0.5 


0.4 


0.3 


权 值 更 新 的 次 数 
图 3 不 同 目标 函数 训练 结果 


对 比 图 3 可 以 发 现 ， 在 现 有 样本 的 基础 上 ， 交 叉 炉 目标 函 


录用 稿 
数 对 网 络 的 优化 效果 较 均 方差 有 一 定 的 提高 ， 在 迭代 200 次 网 


络 的 正确 率 为 96.25%。CE-FMCE 较 其 


也 的 目标 函数 能 取得 更 


好 的 效果 ， 网 络 正 确 率 达 到 98.0%， 并 且 CE-FMCE 收敛 速度 
最 快 ， 均 方差 和 交叉 焙 的 收银 效果 表现 都 不 理想 。 
将 本 文 提 出 的 目标 函数 CE-FMCE 与 目前 被 广泛 使 用 的 多 
分 类 目标 函数 在 训练 集 和 测试 集 做 对 比 实验 ,结果 如 表 3 所 示 。 
表 3 不 同 目标 函数 的 模型 正确 率 
标 函 数 训练 集 /% 测试 集 /% 
MCE 92 78.12 
均 方差 95.4 82.0 
交叉 灶 96.25 83.38 
MICE["] 97.0 84.59 
CE-FMCE 98.0 86.78 
对 比 表 3 发 现 均 方 差 目 标 函数 在 训练 集 和 测试 集 的 正确 率 
分 别 为 95.4% 和 82.0%; 交叉 烂 目标 函数 在 测试 集 的 准确 达到 


T 83 


正 


测 
测 


包 


If 


样 


标 


MCE 在 错 分 类 时 出 现 梯 度 反 向 的 问题 ， 表 3 
本 文 的 改进 ， 相 比 于 M3CE 测试 全 


组 实验 数据 采用 通 / 


个 


.38%; 文献 [17] 设 计 的 M3CE 目标 函数 在 训练 集 和 测试 集 的 
确 率 都 有 一 定 的 提升 ， 训 练 集 正确 率 为 97.0%， 测 试 集 正确 
达到 84.59%， 比 交叉 烂 目标 函数 提升 1.21%。 本 文 设计 的 目 
函数 CE-FMCE, 在 模型 迭代 200 次 后 训练 集 正 确 率 为 98.0%， 
试 集 正 确 率 达 到 86.78%, 比 交 叉 粹 函数 在 训练 集 高 出 1.75%， 
试 集 高 出 3.4%。CE-FMCE 在 理论 上 修正 了 文献 [17] 提 出 的 
很 好 地 验证 了 
的 正确 率 提高 了 2.19%， 这 


nt 


充分 证 明了 CE-FMCE 的 可 


行 性 。 


3.2 基于 CE-FMCE 的 MNIST 数据 集 对 比 实验 


为 了 验证 本 文 提 出 的 目标 函数 CE-FMCE 的 普 适 性 ， 第 二 
数据 集 手 写字 体 库 MNIST。MNIST 数据 
10 类 手写 数字 ， 如 图 4 所 示 。 其 中 包含 42 000 
训练 样本 ，10 000 个 测试 样本 ， 图 像 分 辨 率 为 28*28， 部 分 
本 数据 如 图 4 所 示 。 


STR? 


图 4 MNIST 数据 集 部 分 样本 
第 二 组 实验 将 CE-FMCE 与 其 他 的 目标 函数 在 MNIST 数 据 


Da 


集 进行 验证 。 网 络 采 用 与 第 一 组 实验 相同 的 模型 ， 


将 MNIST 
据 集中 的 样本 转换 为 28*28*1 的 格式 作为 网 络 的 输入 ， 对 模 
设置 迭代 次 数 100 次 ， 实 验 结果 如 表 4 所 示 。 


表 4 不 同 目标 函数 的 模型 正确 率 
标 函 数 训练 集 /% 测试 集 /% 
MCE 99.69 98.90 
多 方差 99.25 98.35 
交叉 灶 99.79 98.99 
M3CE07 99.86 99.06 
CE-FMCE 99.92 99.11 


测 


0.05%， 且 表现 能 力 


分 


MNIST 数据 集 的 数字 噪声 干扰 少 、 


模 
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从 表 4 可 以 看 出 ，CE-FMCE 的 训练 集 正确 率 为 99.92%， 
试 集 正 确 率 达 到 99.11%， 较 M3CE 测试 集 正 确 率 提升 了 
天 于 其 他 目标 函数 ， 但 是 相对 于 其 他 的 多 
标 函 数 ， 模 型 的 正确 率 的 提升 并 不 大 。 分 析 原 因 在 于 
识别 难度 低 ， 所 以 基 ; 


类 


比较 高 ， 提 升 不 太 明 显 。 
对 比 表 3 和 4 发 现 ，CE-FMCE 对 特征 复杂 的 图 像样 本 ， 
型 正确 率 提 升 效果 明显 。 


结束 语 


深度 学 习 通过 构建 深层 非 线性 网 络 实现 复杂 函数 的 逼近 来 


达 自 然 图 像 的 深层 抽象 特征 ， 克 服 传统 浅 层 神经 网 络 对 复杂 
类 问题 泛 化 能 力 弱 的 问题 。 目 前 针对 深度 学 习 网 络 的 五 
集中 在 优化 网 络 参数 ， 目 标 函 数 作为 深度 学 习 算 法 的 重要 组 
部 分 不 仅 表 征 当 前 网 络 的 状态 ， 还 在 网 络 的 梯度 下 降 法 中 提 


ey 
可 
出 
ASS 


MCE 建立 的 目标 函数 在 网 络 中 存在 的 梯度 问题 ， 


M3CE 进行 对 比 实验 ， 


的 


参数 梯度 。 因 此 ， 本 文 对 目标 函数 展开 研究 ， 针 对 传统 基于 


是 出 基于 


他 
全 
民 
六 
所 
这 
nl 
六 


未 函数 CE-FMCE; 并 且 在 自 建 台风 云图 
通用 数据 集 手 写字 体 库 MNIST, 将 CE-FMCE 与 目前 
广泛 应 用 于 多 分 类 问题 的 目标 函数 MSE、 交 叉 粮 、MCE 和 
达到 了 预期 的 效果 ， 充 分 证 明 本 文 方法 
可 行 性 ， 为 今后 的 研究 提供 一 种 新 的 思路 。 

基于 改进 最 小 分 类 误差 准则 的 深度 学 习 算 法 ， 将 非 标签 集 
的 梯度 作 区 分 处 


mm 


中 导致 批 运行 时 间 长 ， 同 时 对 特征 简单 的 样 
本 集 的 识别 精度 提高 并 不 明显 。 因 此 ， 下 一 步 研 究 并 行 化 提高 
效率 和 进一步 优化 。 
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